在智能系统(例如自动驾驶和机器人导航)中,轨迹预测一直是一个长期存在的问题。最近在大规模基准测试的最新模型一直在迅速推动性能的极限,主要集中于提高预测准确性。但是,这些模型对效率的强调较少,这对于实时应用至关重要。本文提出了一个名为Gatraj的基于注意力的图形模型,其预测速度要高得多。代理的时空动力学,例如行人或车辆,是通过注意机制建模的。代理之间的相互作用是通过图卷积网络建模的。我们还实施了拉普拉斯混合物解码器,以减轻模式崩溃,并为每个代理生成多种模式预测。我们的模型以在多个开放数据集上测试的更高预测速度与最先进的模型相同的性能。
translated by 谷歌翻译
合作感知的想法是从多辆车之间的共同感知数据中受益,并克服单车上车载传感器的局限性。但是,由于本地化不准确,通信带宽和模棱两可的融合,多车信息的融合仍然具有挑战性。过去的实践通过放置精确的GNSS定位系统来简化问题,手动指定连接的车辆数量并确定融合策略。本文提出了一个基于地图的合作感​​知框架,名为MAP容器,以提高合作感的准确性和鲁棒性,最终克服了这个问题。概念“地图容器”表示地图是将所有信息转换为地图坐标空间的平台,并将不同的信息源合并到分布式融合体系结构中。在拟议的MAP容器中,考虑使用GNSS信号和传感器功能和地图功能之间的匹配关系以优化环境状态的估计。对仿真数据集和房地车平台的评估结果验证了所提出的方法的有效性。
translated by 谷歌翻译
雷达和摄像机多模式融合的环境感知对于自动驾驶至关重要,以提高准确性,完整性和稳健性。本文着重于如何利用毫米波(MMW)雷达和相机传感器融合进行3D对象检测。提出了一种新的方法,该方法在提出了更好的特征表示形式下意识到在鸟眼视图(BEV)下的特征级融合。首先,将雷达特征通过时间积累增强,并发送到时间空间编码器以进行雷达特征提取。同时,通过图像骨干和颈部模型获得了适应各种空间尺度的多尺度图像2D特征。然后,将图像功能转换为使用设计的视图变压器。此外,这项工作将多模式特征与称为点融合和ROI融合的两阶段融合模型融合在一起。最后,检测头会回归对象类别和3D位置。实验结果表明,所提出的方法在最重要的检测指标,平均平均精度(MAP)和NUSCENES检测分数(NDS)下实现了最先进的性能。
translated by 谷歌翻译
The data consistency for the physical forward model is crucial in inverse problems, especially in MR imaging reconstruction. The standard way is to unroll an iterative algorithm into a neural network with a forward model embedded. The forward model always changes in clinical practice, so the learning component's entanglement with the forward model makes the reconstruction hard to generalize. The proposed method is more generalizable for different MR acquisition settings by separating the forward model from the deep learning component. The deep learning-based proximal gradient descent was proposed to create a learned regularization term independent of the forward model. We applied the one-time trained regularization term to different MR acquisition settings to validate the proposed method and compared the reconstruction with the commonly used $\ell_1$ regularization. We showed ~3 dB improvement in the peak signal to noise ratio, compared with conventional $\ell_1$ regularized reconstruction. We demonstrated the flexibility of the proposed method in choosing different undersampling patterns. We also evaluated the effect of parameter tuning for the deep learning regularization.
translated by 谷歌翻译
Few-shot (FS) and zero-shot (ZS) learning are two different approaches for scaling temporal action detection (TAD) to new classes. The former adapts a pretrained vision model to a new task represented by as few as a single video per class, whilst the latter requires no training examples by exploiting a semantic description of the new class. In this work, we introduce a new multi-modality few-shot (MMFS) TAD problem, which can be considered as a marriage of FS-TAD and ZS-TAD by leveraging few-shot support videos and new class names jointly. To tackle this problem, we further introduce a novel MUlti-modality PromPt mETa-learning (MUPPET) method. This is enabled by efficiently bridging pretrained vision and language models whilst maximally reusing already learned capacity. Concretely, we construct multi-modal prompts by mapping support videos into the textual token space of a vision-language model using a meta-learned adapter-equipped visual semantics tokenizer. To tackle large intra-class variation, we further design a query feature regulation scheme. Extensive experiments on ActivityNetv1.3 and THUMOS14 demonstrate that our MUPPET outperforms state-of-the-art alternative methods, often by a large margin. We also show that our MUPPET can be easily extended to tackle the few-shot object detection problem and again achieves the state-of-the-art performance on MS-COCO dataset. The code will be available in https://github.com/sauradip/MUPPET
translated by 谷歌翻译
Data valuation, especially quantifying data value in algorithmic prediction and decision-making, is a fundamental problem in data trading scenarios. The most widely used method is to define the data Shapley and approximate it by means of the permutation sampling algorithm. To make up for the large estimation variance of the permutation sampling that hinders the development of the data marketplace, we propose a more robust data valuation method using stratified sampling, named variance reduced data Shapley (VRDS for short). We theoretically show how to stratify, how many samples are taken at each stratum, and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS is illustrated in different types of datasets and data removal applications.
translated by 谷歌翻译
在高光谱图像分类(HSI)任务中,忽略了包括有关土地覆盖类别的大量先验知识在内的文本信息。有必要探索语言模式在协助HSI分类方面的有效性。此外,大规模训练的图像文本基础模型在各种下游应用中都表现出了出色的性能,包括零拍传输。但是,大多数领域的概括方法从未解决过采矿语言模态知识以提高模型的概括性能。为了弥补上述不足的不足,提出了一个语言感知的域概括网络(LDGNET),以从跨域共享的先验知识中学习跨域不变的表示。所提出的方法仅在源域(SD)上训练,然后将模型传输到目标域(TD)。包括图像编码器和文本编码器在内的双流架构用于提取视觉和语言特征,其中粗粒和细粒度的文本表示旨在提取两个层次的语言特征。此外,语言特征被用作跨域共享的语义空间,并且通过在语义空间中的对比度学习完成视觉语言对齐。与最先进的技术相比,三个数据集上的广泛实验证明了该方法的优越性。
translated by 谷歌翻译
最近,国内Covid-19的流行状况很严重,但是在某些公共场所,有些人不戴口罩或不正确戴口罩,这要求相关人员立即提醒和监督他们正确戴口罩。但是,面对如此重要且复杂的工作,有必要在公共场所戴上自动面具。本文提出了一种基于改进的Yolov4的新面具戴上检测方法。具体而言,首先,我们将坐标注意模块添加到主链中以坐标特征融合和表示。其次,我们进行了一系列网络结构改进,以增强模型性能和鲁棒性。第三,我们部署K-Means聚类算法以使九个锚点更适合我们的NPMD数据集。实验结果表明,改进的Yolov4的性能更好,超过基线4.06%AP,可比速度为64.37 fps。
translated by 谷歌翻译
随着人工智能和简短视频的快速发展,短视频中的情感识别已成为人类计算机互动中最重要的研究主题之一。目前,大多数情感识别方法仍然保持在单一方式中。但是,在日常生活中,人类通常会掩盖自己的真实情绪,这导致了一个问题,即单局情感识别的准确性相对可怕。而且,区分类似的情绪并不容易。因此,我们提出了一种新方法,称为ICANET,通过采用三种不同的音频,视频和光学方式来实现多模式的短视频情感识别,从而弥补了缺乏单一模态,然后在短视频中提高情感识别的准确性。ICANET在IEMOCAP基准测试中具有更好的精度为80.77%,超过SOTA方法的精度为15.89%。
translated by 谷歌翻译
最近发布的EGO4D数据集和基准测试显着缩放,并使第一人称视觉感知数据多样化。在EGO4D中,视觉查询2D本地化任务旨在从第一人称视图中的录制中检索过去出现的对象。此任务需要一个系统才能在空间和时间上定位给定对象查询的最新外观,其中查询在不同场景中被对象的单个紧密视觉作物注册。我们的研究基于情节记忆基准中引入的三阶段基线。基线通过检测和跟踪解决问题:检测所有帧中的相似对象,然后从最自信的检测结果中运行跟踪器。在VQ2D挑战中,我们确定了当前基线的两个局限性。 (1)训练配置具有冗余计算。尽管培训集有数百万个实例,但其中大多数是重复的,唯一对象的数量仅为14.6k。相同对象的重复梯度计算导致效率低下的训练; (2)背景框架上的误报率很高。这是由于培训和评估之间的分布差距。在培训期间,该模型只能看到干净,稳定和标记的框架,但是以自我为中心的视频也具有嘈杂,模糊或未标记的背景框架。为此,我们开发了一个更有效的解决方案。具体来说,我们将训练环从约15天提高到不到24小时,并且达到了0.17%的空间AP,比基线高31%。我们的解决方案在公共排行榜上获得了第一个排名。我们的代码可在https://github.com/facebookresearch/vq2d_cvpr上公开获取。
translated by 谷歌翻译